查看原文
其他

账单原始数据的常见问题

SHULAN 数岚情报分析专家系统 2022-11-03

经常有用户和我们反应,在日常办案分析中发现原始账单数据缺失或重复,格式千奇百怪,数据好多无从下手,在这我们就账单数据存在的常见问题进行一个框架性的梳理。


1数据缺失

 

话单的原始数据一般来源于移动、电信或公安系统,来源的相对稳定保证了格式的稳定。但账单却可能来自于数十上百家不同的银行,甚至有时同一银行不同地区都会有很大的区别。

 

(图中信息均经过技术处理,如有雷同纯属巧合)

 

一个完整的账单一般包含上图所示的列,但在实际分析中,原始数据却可能存在缺失的情况。以上图转换导入后的数据为例,绿色标识的农商行缺少【对方户名】、【机构号】、【机构名称】、【备注】,红色标识的中国工商银行缺少【时间】、【渠道】。甚至,还遇到过一部分账单数据连【交易额】都是缺失的。
 
在Excel中修补原始数据缺失是非常困难的,Excel一张分表最多支持20万行数据,批量操作不仅吃电脑配置,还经常因为负荷太大导致软件崩溃。
 
原始数据的缺陷对数据分析提出了更高的要求,数据分析软件除了分析职能外,还必须担当一部分数据管理修复的职能,如缺少【交易额】,就可能需要根据前后【余额】自动推导交易额。
 
而数据分析人员则要有更开放灵活的思路,去看待可能有偏差的数据。举个例子,还是如下图所示,假设以【时间】为筛选条件,因部分银行账单时间缺失,得到的筛选统计结果一定是失真的。


2数据干扰
 
即使运营商给到的账单数据完整详尽,账单仍存在大量的干扰数据。一个自然人一天可能会产生数十上百条银行流水,地铁、滴滴、早中晚饭任何交易行为甚至一部分非交易行为都会产生银行流水,这就导致账单干扰数据远多于话单。
 
在过去的经验积累中,我们观察到大多数人10000元以下的交易占了70%以上,而职务犯罪金额往往大于10000元,那如何高效锁定可疑数据呢?
 
这里介绍一个思路,账单数据有多个维度,我们分析一个人的账单,可从【交易次数】、【交易金额】、【大额次数】、【交易天数】、【日期跨度】等维度去分析,从问题、案件类型入手选择需要的维度、筛选条件,有效避免数据干扰。

(图中信息均经过技术处理,如有雷同纯属巧合)
 
如上图所示,沈十一自己和自己的交易,即多张卡互相周转在多个维度中均有出现,微信/支付宝/财付通大量出现在【对方户名】。
 
假如仅关注沈十一和他人的交易关系,而不关注沈十一自己卡号来回周转,可以在筛选条件里以关键词形式排除以上项,重点关注【大额金额】、【交易金额】等维度。
 
假如关注沈十一的生活支出,掌握人物消费习惯,则需要重点设置微信/支付宝/财付通等筛选条件。
 


此外,在一些深度挖掘分析中,我们的系统内植了初步排查的逻辑,以保证错误数据不会干扰总体结果,如有的功能会自动忽略沈十一自己多张卡来回周转的流水。而银行数据重复的问题,我们的系统有导入自动查重剔除,导入后手动查重,批量剔除等多个智能环节以保证数据无重复。 
 
在银行所给账单数据足够理想的情况下,以上问题并不是问题,但现实是银行林立、各地区独立,很难从源头上解决账单数据的混乱,我们和各银行网点工作人员、办案人员深度交流后,数岚研发团队对系统进行了深度优化。通过软件智能解决了95%的问题,但仍有少量问题残留(如农商行经常缺少交易网点地址),目前可能就要办案单位和银行机构进一步沟通规范交易流水格式来弥补了。

往期推荐


办案推荐:数岚情报分析专家系统

账话单转换导入相关问题详解

账话单分析软件在办案实战中的运用

情报分析必杀技之基站定位

办案手记(8)特别关注



了解详情/业务咨询/申请试用,请联系我们,

服务热线:400-999-0905




关注公众号 成为办案高手

数岚情报分析专家


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存